A Universal Music Translation Network
ShuKumata.icon
The problem the authors try to solve:
1枚まとめ
https://gyazo.com/a51a486b4d75ee2f283d9867106bf349
1. どんなもの? 問題意識は?
音楽のジャンル(ピアノソロ、交響曲、口笛etc)を別のジャンルに変換するモデルを提案
ジャンル情報のない潜在表現を獲得し、各ジャンルに対応したdecoderを通すことで変換する。Audio2Audio。
https://www.youtube.com/watch?v=vdxCqNWTpUs
2. 先行研究と比べてどこがすごい?
Audio2Audioで音楽のスタイル変換に取り組んだ先行研究がない?
3. 技術や手法のキモはどこ?
教師無しでドメイン変換を行う
教師有りで行う場合には、複数ジャンルの同じ音楽をデータセットとして用意する必要が出てくる
Domain Confusion Network
ドメイン依存の情報をエンコードしないようにするために、エンコード後の潜在ベクトルから入力がどのドメインの音楽かを予測する分類器を混乱させるように学習する。(AutoEncoderは再構成誤差の最小化かつその分類器の分類誤差を最大化するように学習させ、分類器は分類誤差を最小化するように学習させる。)
Audio Input Augmentation
入力の音楽の一部のピッチをランダムに変えてから、AutoEncoderを学習させた。
Decoderはピッチを変えた部分も修正するように学習する必要が出てくる。
そのまま入力を記憶してしまうことを防ぐ役割。
Domain Confusion NetworkとAudio Input Augmentationなしでは、うまく学習できなかった。
4. どうやって有効だと検証した?
本モデルで変換した音楽(?->piano)とプロの音楽家3人が変換した音楽とを比較してもらい、Audioの質とうまく変換できているかをMOS scoreで比較 プロの音楽家が変換した音楽の方が圧倒的に良いという結果に
NCC(normalized cross correlation)の値ではモデルの方が良く、DTW(Dynamic Time Warping)の値では、ほとんど同じであった。(入力と出力のpitchを比較する指標?)
モデルが入力のタイミングを保存していることが言えるのではないか。
5. 議論はある?
音楽の記譜や自動作曲に応用できる可能性がある。(5. Discussionより)
複数Decoderではなく、一つのDecoderでできないのか。
本文ではうまくいかなかったと記述がある(2. Previous Workの3段落目より)
6. 次に読むべき論文は?
本論文のモデルのベースとなったAutoEncoderを提案している
一つのencoder-decoderで複数のドメインで画像変換を行なっている
CoGAN
Domain Confusion Loss
リンク
facebook researchの実装